iT邦幫忙

2023 iThome 鐵人賽

DAY 25
0
AI & Data

進入AI的世界系列 第 25

➤D-25 核心應用☞自然語言處理-1(基本概念與應用)

  • 分享至 

  • xImage
  •  

基本概念與應用

基本概念

自然語言處理(Natural Language Processing, NLP)指機器人對於人類自然語言與文字的辨識、分析、理解及生成的處理能力。
主管AI對文字語言的理解認知,賦予AI主要能力包括:「看得懂」、「聽得懂」、「會寫句子、新聞與文章」、「瞭解及分辨文章主要內容」、「能回答問題」、「能互動對話」等。


主要應用

  1. 語音與文字轉換

    • 語音辨識(Speech Recognition):語音轉文字(Speech-to-Text, STT),指AI如何辨識人類聲音,如何由人類聲音音波轉換為自然語言的文字(聽寫)。
    • 語音合成(Speech Synthesis):文字轉語音(Text-to-Speech, TTS),指AI如何「說的正確、清楚」,也就是AI如何由一段文字生成對應的音波,產生人類聽得懂的語言,例如:Siri、Alexa。
  2. 自然語言生成(Natural Language Generation, NLG):指AI如何能「寫」、「作文」、「寫文章」,主要利用語言模型(Language Model)經過大語料庫的預訓練後來準確地「預測與生成」給定文字的「下一個」可能出現的字。

  3. 自然語言分類

    • 情緒分析(Sentimental Analysis):指AI能利用關鍵字辨識,或句子的特徵來瞭解一段評論是表達「正面」認可的「情緒」,還是「負面」的不滿意情緒,從而瞭解產品或政見的被接受程度。
    • 意圖分類(Intent Classification):指AI能利用一段文句的關鍵字辨識,或句子的特徵來瞭解及分類使用者的意圖(User Intent)。例如☞一個航空公司的AI必須能清楚地分辨,顧客的「意圖」是要查詢、預訂、退票或改換機票,從而提出相對應的服務。
    • 文本分類(Text Classificatin):指AI能利用關鍵字的辨識,或文本的特徵來快速地將文本做正確的分類,例如☞垃圾郵件分類。
  4. 語言配對生成:指AI面對一個來源的文字序列(Source Word Sequence)能正確適當地轉換成另一個相對應的目標文字序列(Target Word Sequence)的能力。

    • 機器翻譯(Machine Translation):透過配對兩種不同語言、語句的大量訓練與學習後,能將A語言轉換成為多維的詞向量(Word Embedding)特徵後,再將此特徵數據解碼轉換成B語言的過程。
    • 問答系統(QA):透過Q與A的配對數據訓練後,AI能自動辨識Q的意圖,檢索出一個適合的正確答案。
    • 聊天機器人(Chatbot):能與人類自然對話的互動式AI,相對於簡單一問一答的QA系統,聊天機器人對話的時間更長,互動的輪次更多、更複雜。
    • AI助理(AI Assistant):透過語音輸入而瞭解人類意圖,進而提出適當的回應,或透過API與外界軟體的結合來執行適當任務的一種互動聊天機器人,或稱為AI音箱(AI Speaker),例如☞Siri、Alexa等。
  5. 文本分析(Text Analysis):或稱為資訊檢索(Information Retrieval),指AI從一段較長的自然語言、非結構文本中有目的地抽取其中重要、關鍵的資訊,藉以瞭解此文本的主要意涵。此能力式自然語言理解(NL)重要的一環。

    • 關鍵詞抽取(Key Phrase Extraction):從一個文本(Text)中依照其代表性、關鍵性、重要性的高低抽取少數重要關鍵詞(Keywords),瞭解此文章主要重點內容與類別。
    • 摘要抽取(Abstract Extraction):在原始文本中,自動摘要出最具代表性的文句或知識。摘要抽取即是☞在一個非結構的文本中尋找最重要的幾句話。
    • 命名實體抽取(Named Entity Extraction, NEE):又稱「專有名詞抽取」,指機器透過學習,抽取在現實世界中「已命名好」、「具體存在」的特定類別「實體」(Entity),實體可分為三大類、七小類。三大類包括數字、時間與實體;七小類包括人、組織、地點、時間、日期、貨幣與百分比,主要用來幫助目標文本的瞭解、搜尋與分類。
    • 主題抽取(Topic Extraction):由輸入文本抽取其重要的關鍵詞集合(Key Phase Set),並透過不同關鍵詞群組來瞭解這個文本討論的各種主題。例如文本常出現顧客關係、顧客價值、一對一行銷、客製化服務等關鍵詞,就可以說這篇文章屬於顧客關係管理(Customer Relationship Management, CRM)的主題。
  6. 類文字序列應用:序列來進行分類與瞭解。

    • 音樂的自動作曲、作詞、伴奏、和弦,以及樂曲的自動搜尋、推薦、分析等。
    • 生物資訊序列分析,例如:腦波、心電圖等。

重要性

  1. 重要性:
    • 瞭解知識重要性
    • 知識主要儲存在文字中
    • 互動溝通重要性
    • 資訊爆炸時代必須性

困難

  • 語言法則複雜性
    • 多種詞性無數多的組合結構
  • 語言多樣性自由組合
    • 詞句自由組合,彈性極大,一種意義幾十種說法
  • 語言開放性
    • 隨著時代變化,不斷產生新詞彙
  • 語言背景強烈依賴性
    • 不同地方不同意思,千變萬化
  • 語言詞句歧異性
    • 不同地方不同意思,千變萬化
    • 同詞異義,異詞同義
  • 中文困難
    • 字級量大:13053個
    • 詞界線不清,如南京市長江大橋
    • 句子界線不清
    • 沒有明顯的「時態」「單複數」
    • 詞序很自由

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-24 深度學習與主要神經網路-4【完】(生成對抗網路、遷移式學習)
下一篇
➤D-26 核心應用☞自然語言處理-2(主要架構)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言